[Day 27] Fairness(上)

2019 iT 邦幫忙鐵人賽

DAY 27

AI & Data

跟著Google學ML系列第 27 篇

2019鐵人賽 machine learning

Joseph-bug

2018-10-27 23:46:53

1909 瀏覽

分享至

Ref.: Fairness

Google Machine Learning Crash Course在這一個月內很像很明顯的改版了兩次，多了一些類別，而且多了這個主題 Fairness。

簡體中文還沒翻譯喔，習慣切去簡體中文的各位要痛苦了。

這邊主要是為了公平性，列出一些bias，但這邊列的bias並沒有所有都列進來，可以參考wiki bias種類。識別bias很重要，攸關到你的model訓練過程跟預測結果。

Reporting Bias

資料的頻率或屬性沒有正確反映出現實世界的樣子，通常是因為把焦點放在特別不尋常或特別難忘上面。

如果我們Training data都是一些非常喜歡或非常討厭的data，對於立場中立的資料其預測正確性就會很差。

Automation Bias

只喜歡自動化系統的結果，而忽略了人為判斷的資料。

工程師用工程師思維去設計一個model，到最後發現判斷結果precision, recall比人為判斷還差

選擇偏差Selection Bias

選擇example時的方法跟真實世界的分布不一樣時會發生，又可以分成三種：

Coverage bias

選擇的過程不是透過有代表性的方法完成，太收斂至某個群體。

像是預測新手機的銷售量，但training data不包含買競爭者商品的使用者。

Non-response bias(或稱participation bias)

在資料收集的過程中，因參與差距使的資料最後變成不具代表意義

像是預測新手機的銷售量，雖有買競爭者產品跟買自家產品的使用者，但80%買競爭者的產品沒有完成整個資料收集的過程。

取樣偏差Sampling bias

資料收集時沒有使用適當的隨機取樣方法。

像是預測新手機的銷售量，雖有買競爭者產品跟買自家產品的使用者，但最後選擇的資料是前200個完成收集過程的人，前200個人很可能是自家產品的忠實粉絲。

Group Attribution Bias

對群體有一些先入為主的想法，因而選擇時造成資料偏差

In-group bias

只喜歡自己所在的群體、或跟自己有相同特性的群體

某學校畢業的只喜歡某學校畢業的人，覺得他們比較適合這個工作

Out-group homogeneity bias

對跟自己沒關的團體有些刻板印象

資工背景的覺得其他非資工畢業的不夠專業

Implicit Bias

依照自己的個人經驗或心智模型為依據，但不夠通盤的看整體可能性。

用搖頭當成說不去訓練model，卻忽略了有些文化可能搖頭是說好。

Confirmation bias

Implicit Bias最常見的形式，模型建立者不知不覺用預先存在的信念或假設去處理資料。

Experimenter's bias

模型建立者反覆訓練model直到結果跟自己想的一樣。

討厭貴賓狗的人，在訓練寵物狗是否溫順時，一直訓練到model預測貴賓狗是野蠻為止。

OK，這邊列出了很多種bias，記得，並不是全部，要全部請看wiki。

[Day 26] Data Dependencies

[Day 28] Fairness(下)

系列文

跟著Google學ML 共 30 篇

RSS系列文訂閱系列文

30 人訂閱

完整目錄

直播研討會

{{ item.channelVendor }} {{ item.webinarstarted }} |

直播中

尚未有邦友留言

立即登入留言

參賽組數

1064 組

團體組數

40 組

累計文章數

22200 篇

完賽人數

602 人

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# windows server linux css react vue.js

IT邦幫忙

跟著Google學ML系列 第 27 篇